查看原文
其他

武汉大学吴华意、桂志鹏团队在《自然·通讯》发表聚类算法论文

lmars 慧天地 2022-09-22

点击上方“慧天地”关注我们

文章转载自微信公众号测绘遥感国家重点实验室编辑、推送:蒋卉,审核:关琳、陈莉琼,编审:学生工作办公室,版权归原作者及刊载媒体所有。


日,测绘遥感国家重点实验室吴华意教授、遥感信息工程学院桂志鹏副教授团队在国际综合类学术期刊《自然·通讯》发表题为 “Clustering by measuring local direction centrality for data with heterogeneous density and weak connectivity (一种面向密度异质与弱连接的局部方向中心性聚类算法)”的论文。研究团队基于边界搜寻思想,提出了一种局部方向中心性聚类算法(简称CDC),能够有效克服现实数据分布中普遍存在的密度异质和弱连接性问题,从而提升聚类的精度与稳定性,论文通过多类数据集上与基准算法的对比实验验证了算法的有效性。审稿人对论文给予了高度评价,认为该方法是优雅简洁创新的(“The algorithm is extremely elegantsimple, and innovative”)。


论文第一作者为测绘遥感国家重点实验室2020级博士生彭德华(一导为吴华意教授),通讯作者为武汉大学遥感信息工程学院桂志鹏副教授。论文合作者武汉大学生命科学学院周宇教授、王得和博士为细胞识别相关实验分析提供支持,其他合作者包括测绘遥感国家重点实验室2022级博士生马云骋和遥感信息工程学院2022级硕士生黄子晨。该研究工作得到国家自然科学基金、国家科技部重点研发计划项目、武汉大学知卓时空智能研究基金等项目的资助。此外,武大超算中心为项目团队提供了计算资源支持。

CDC算法的多个应用场景和scRNA-seq数据的处理流程及聚类结果
聚类是一种强大的非监督分类机器学习方法,其根据数据在特征空间中的邻近性挖掘数据背后隐藏的群体分布模式,因此被广泛应用于信息科学、生物学、地球学和经济学等领域。尽管已有不计其数的聚类方法被提出,但现实数据分布中普遍存在的密度异质和弱连接特性仍然给聚类分析带来巨大挑战,导致不同密度的类簇很难通过统一的聚类参数设置被完整识别,而存在弱连接的不同聚类簇被误合并,严重制约了聚类分析的精度与鲁棒性。该论文提出的局部方向中心性聚类算法CDC,通过度量每个点的K最近邻(KNN)分布均匀性来区分内部点和边界点。由于边界点能够形成封闭的笼子约束内部点的连接,从而防止跨簇连接,实现弱连接簇的有效分离,也避免了密度异质对类簇识别的影响。该研究在48个不同类型数据集上(单细胞RNA序列、质谱流式细胞、合成数据集、UCI数据集,人声语料库,人脸图像)将CDC与38种专业或通用基准算法进行了性能对比,结果表明CDC较主流聚类方法有更高的精度和参数鲁棒性,并表现出较好的伸缩性与数据适应性,因此具有广泛的潜在应用价值。

点击文末“阅读原文”即可查看原论文。




荐读

【智慧地球大讲堂】第179期:王中挺,卫星遥感技术在大气环境监测领域的应用
关于 2010-2021 年度遥感领域十大事件内容及其对应单位的公示

重大突破!遥感科学与技术成为新的一级学科

《慧天地》敬告

《慧天地》公众号聚焦国内外时空信息科技前沿、行业发展动态、跨界融合趋势,发现企业核心竞争力,传播测绘地理信息文化,为时空信息类相关专业学子提供日常学习、考研就业一站式服务,打造政产学研金服用精准对接的平台。

《慧天地》借鉴《读者》办刊理念,把时空信息领域的精华内容汇聚到平台上。我们高度重视版权,对于精选的每一篇推文,都会在文章开头显著注明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请后台留言,我们会及时删除。感谢大家一直以来对《慧天地》的关注和支持!


——《慧天地》运营团队

投稿、转载、商务等合作请联系

微信号:huitiandi321

邮箱:geomaticshtd@163.com

编辑:王轲  审核:黄青学指导:万剑华教授

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存